1
统计推断中最优性的定义
MATH003Lesson 8
00:00
在浩瀚的统计数据荒野中,我们是追寻真相的猎人——那个真实的参数 $\psi(\theta)$。但究竟如何判断哪支箭(估计量)才是最佳选择? 最优性 最优性并非模糊的感受;它是一种数学艺术,旨在最小化损失。要找到‘最佳’估计量,我们应关注均方误差(MSE),它精妙地分解为两种基本力量之间的张力: 方差偏差

定义黄金标准:均方误差(MSE)

为了量化我们的估计值 $T$ 与真实值 $\psi(\theta)$ 之间的差距,我们定义 均方误差 (定义 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

这是估计量与目标值之间平方距离的平均值。一个完美的估计量其均方误差应为零,但在充满随机噪声的世界中,我们努力使其最小化。

定理 8.1.1:误差的结构

为什么一个估计量会失败?定理 8.1.1 提供了蓝图。若 $T$ 具有有限的二阶矩,则相对于任意常数 $c$ 的误差为:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

该公式表明,总平方误差仅在 我们选择 $c = E(T)$ 时才能最小化。在推断的语境下,我们设 $c = \psi(\theta)$,从而得出著名的分解式:

MSE = 方差 + 偏差²

精度与准确度的权衡

想象实验室中有两台称重秤:

  • 精确古物: 它每次显示相同的重量(低方差),但存在 2 克的校准偏差(高偏差)。
  • 反复无常的智者: 它平均而言是正确的(偏差为零),但在测量之间波动剧烈(高方差)。

定理 8.1.1 使我们能够精确计算出哪台秤的总误差更低。通常,只要能显著降低噪声(方差),我们愿意接受少量系统性偏差(偏差)。

例 8.1.1:充分性与信息

最优性与 信息有关。考虑样本空间 $S = \{1, 2, 3, 4\}$。如果在所有可能的参数下,结果 2、3 和 4 的可能性相等,那么它们具有 相同的似然。我们可以定义一个充分统计量 $U$,将这些结果归为一类,而不会丧失做出最优推断的能力。如模拟所示,若 $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$,则最优估计量会将它们视为一个单一的信息事件。

🎯 核心原则
当估计量最小化期望损失时,它即为最优。对于平方误差损失,这意味着找到方差与偏差²之和达到绝对最小值的点。